本章節可以在colab上面跑。
主要是利用google search去抓相關新聞資訊,沒有爬各式網站種類。
我有先在 Google Search 設定查詢網址
https://jumping-code.com/2021/05/27/google-search-console-api-%E6%95%99%E5%AD%B8/
最近 Google 又改版了,所以只能自己 debug 了
這段程式碼使用 Google 的 Custom Search API 來進行搜尋,並將結果存儲在一個列表中。
每個結果包含標題和摘要。
提供的程式碼是用來進行 Google 搜尋的,以下是詳細解釋:
以下需要變更為自己的 API 和 ID
SEARCH_API = "*****************************"
SEARCH_ENGINE_ID = "**************"
因為有時候會查不到資料,所以需要確認item裡面有沒有內容,如果沒有的話 就回傳。
我們設定要查詢的公司為“台積電”,這邊可以自己替換。
from googleapiclient.discovery import build
# search_result = {}
query = "台積電"
def GoogleSearch(query):
search_result = []
SEARCH_API = "*****************************"
SEARCH_ENGINE_ID = "**************"
service = build("customsearch", "v1", developerKey=SEARCH_API, cache_discovery=False)
res = service.cse().list(q=query, cx=SEARCH_ENGINE_ID).execute()
# 處理搜尋結果:
search_items = res.get('items')
if search_items is None:
return search_result
for item in res['items']:
try:
title = item.get('title').replace("\n", "",20).replace("\xa0","",20)
snippet = item.get('snippet').replace("\n", "",30).replace("\xa0","",30)
search_result.append({"Title": title, "Content":snippet})
except:
continue
return search_result
search_result = GoogleSearch(query)
雖然官方API很好,但因為不確定哪裡設定有問題,一直沒辦法準確篩選出想要的資料,雖然可以提取到Title和內文,但太多垃圾資料,所以後來我改用非官方API。
https://github.com/Iceloof/GoogleNews
你需要安裝 GoogleNews 套件。你可以使用以下命令來安裝:
!pip install GoogleNews
你可以使用以下程式碼來設定相關參數並獲取新聞數據:
from GoogleNews import GoogleNews
googlenews = GoogleNews(period='3d', lang='zh', region='TW')
googlenews.get_news('鴻海')
googlenews.get_texts()
你還可以獲取新聞的標題和摘要,使用以下方法:
# 獲取新聞標題和摘要
news_results = googlenews.results()
# 打印新聞標題和摘要
for result in news_results:
print(f"Title: {result['title']}")
print(f"Snippet: {result['desc']}")
這樣就可以使用 Google News API 獲取最新的新聞數據,並根據你的需求進行處理和分析。
之後我們會需要這些資料進行股市分析
對於我這種不會看盤的人和追新聞的人應該用得到? 雖然不是很準確,但多少有點用處,不用自己爬文章。
另外近期中信金可以關注一下
[新聞] 中信金每股14.55元收購 新光金員工暴動了
https://www.ptt.cc/bbs/Stock/M.1724417494.A.7FA.html